1 개요

사용자의 MBTI 성향, 인구통계적 정보를 기반으로 한국 관광지를 추천해주는 시스템을 제안한다.

     

2 주제 선정 이유

2.1 관광은 고부가가치 산업

[관광산업①] 한국 관광은 ‘왜’ 이렇게 일본에 뒤처졌을까

  • 인구 감소와 고령화는 소비와 생산, 유통을 동시에 위축시킴
  • 관광은 상대적으로 젊은 유동인구를 유입시켜 소비와 유통을 늘리고 생산을 자극 -> 고용유발
  • 지방 관광은 지역 사회 발전에도 영향

     

2.2 현 관광산업의 문제점

  • 몰개성한 관광지 제안
    • 여행의 트렌드에 따른 코스
    • 여행사 일정에 따른 코스
    • 개인의 특성, 여행 목적과 무관한 코스
  • 여행 만족도 하락으로 이어짐

     

2.3 이제는 취향과 개성의 시대 - 맞춤형 관광지 추천

reason_2

reason_2

[트렌드 인사이트]여행액티비티 시장 황금의 땅일까 1

  • 개별 여행의 증가 - 패키지 여행의 감소
  • OTA/메타서치(익스피디아 등)를 통한 직접 예약이 증가하는 추세
  • 획일화된 패키지 상품 시대에서 개인 맞춤형 상품의 시대로

     

3 개발 일정 및 팀원 역할

timeline

timeline

     

4 수집 데이터

4.1 Tripadvisor 리뷰 데이터

  • TripAdvisor는 호텔 및 레스토랑 리뷰, 숙박 예약 및 기타 여행 관련 콘텐츠를 보여주는 미국 여행 웹사이트
  • 해외 유저들 개개인이 느끼고 경험한 바가 리뷰로 남겨져 있음
  • BeautifulSoup를 이용해 서울의 관광지 리스트를 먼저 크롤링한 후, 그 리뷰들을 모음.
  • 총 471개 관광지
## Warning: package 'knitr' was built under R version 3.5.3
review_title review_body
Definitely worth stepping out of the airport for when on transit This place is magical. Its exquisite, so well kept and historical. Definitely worth stepping out of the airport for on that 12 hour transit. So well worth it.
Palace Before visiting the palace I went into the free museum which is situated inside the walls of the palace, beautiful inside. You pay for tickets at a small booth very reasonable price, once inside all I can say is stunning
Good for photo ops but difficult with pram If you want to take photos and wear hanbok- this is the place to be! If you want a deeper understanding of the history, get a guide. The grounds are expansive and you can spend hours wandering especially if you visit the museum there. However, note that it is not pram/wheelchair friendly. Also, lines to get tickets can get really long.
Definitely a must in Seoul Especially worth to see a ceremony. Great to see everyone with the traditional costume and if you dare to rent one your entry is FREE!Have tea at the tea house when available
Good The palace is really nice. Has a museum in there too. Lots of lovely Korean kids dressed up in traditional wear.

     

4.2 Instagram 피드 데이터

  • Instagram은 사진 및 비디오 공유 소셜 네트워킹 서비스

  • 어떤 부분에서 관광객들이 매력을 느꼈는지 해시태그를 통해 확인할 수 있음

     

4.3 외래관광객 실태조사

  • 한국관광공사가 우리나라를 방문한 외래관광객의 한국 여행실태, 한국내 소비실태 및 한국 여행 평가를 조사한 자료

  • 외래관광객의 한국 여행성향을 파악할 수 있음

인포그래픽

     

5 EDA

5.1 국가별 방문자 수

한국관광공사 : 한국 관광 통계

한국관광공사 : 외래 관광객 실태 조사

우리나라에 방문하는 외국인은 주로 아시아인이 많고 그 중에서도 중구과 일본이 압도적으로 많다.

재방문 비율을 고객의 충성도라고 비유를 하자면 중국과 일본 홍콩은 우리나라 관광에 대한 충성도가 높은 편이고 그 외의 국가들은 현저하게 떨어진다.

미국의 경우 비즈니스 목적으로 한국에 방문하는 경우가 많다.

하지만, 대부분의 국가들에서 여행을 목적으로 한국에 방문한다. 그러므로 한국에 온 방문자들을 여행자(고객)으로 취급하도록 하겠다.

5.2 한국 방문을 선택하게 된 요인들

초록색(역사.유적지)을 집중해서 보면 미국, 러시아는 이색적인 역사 유적을 남다르게 좋아한다.

빨강색(쇼핑)을 집중해서 보면 일본, 홍콩, 중국은 쇼핑을 하러 오는 경우가 많다.

노란색(케이팝)보라색(자연풍경)을 이전의 그림과 비교해서 보면 자연 풍경과 케이팝에 관심이 많다.

한국에 방문하게 된 고려 요인에서 남성고객과 여성고객의 비율적으로 큰 차이가 나는 것은 유흥과 케이팝같다.

남성고객의 경우 한국의 술문화나 밤거리에 좀 더 관심이 있고 여성고객의 경우 케이팝에 관심이 있다.

이런 디테일을 명소 추천에 반영하게 되면 좋을 것 같다.

젊은 고객들은 역사 유적지는 고려하지 않고 케이팝, 패션 트렌드를 고려하고 한국에 방문하는 경향이 있다.

5.3 한국 여행에서 가장 필요한 정보

우리가 관광지를 추천하고자 하는 것이 실제로 외국인 관광객들이 교통편 다음으로 가장 필요로 하는 정보이다.

관광객들이 정보로 필요로하는 맛집정보나 쇼핑장소도 관광지라는 범주에 포함시킨다면 가치있는 아이템이 될 수 있다고 본다.

5.4 한국 방문 후에 만족했던 활동들

미국, 러시아인의 음식 기호는 맞추지 못하는 것 같다. 그리고 그들은 이색적인 역사 유적과 박물관을 남 다르게 좋아한다.

전통문화체험을 만족한 경우는 방문객 수 대비 드문 것 같다.

전통문화체험에 대해서 만족도가 이전 국가들에 비해서 높은 것이 눈에 띈다.

그 외에도 자연경관에 대해서 만족도도 높고 놀이공원에 대한 만족도도 높다.

여성 고객들이 쇼핑에 좀 더 관심을 보이는 경향이 있다.

비율로 봤을 때, 놀이공원이나 민속 행사 관련된 부분은 10대가 60대에 비해 2~3배 더 관심이 있다.

자연경관쪽에서도 10대 고객은 60대에 비해 현저하게 낮은 관심을 보이고 있다.

6 모델링

6.1 프로토타입 구조

개요

관광지 리뷰와 사용자들의 개인 별 설문 조사에 기반하여 관광지를 추천한다.

  1. 관광지 리뷰, 여행지 정보 문서에 대해서 단어 빈도수에 기반하여 LDA 토픽 모델링을 진행한다.

  2. 가입하기 전 설문 조사를 대해서 MBTI 성격유형 조사여행 전문 설문조사를 진행한다.

  3. 성격과 인구통계 정보가 기록된 유저들의 관광지 리뷰 및 평점이 쌓이게 된 후에 데이터에 근거한 여행지 추천을 해준다.

성격이 기록된 유저 별 여행지 선호 데이터가 없는 현 상황에서는, 성격 정보 중에서도 외향적인 성격만 반영하여 심리학 논문에 기반한 여행지를 추천해주는 것이다.

6.2 LDA

  1. 각 여행지는 \(K\)개의 토픽 mixture로 이루어져 있고 토픽 별로 word 등장 확률이 정해져 있다.
  2. 리뷰 내의 단어들은 \(K\)개의 토픽 중 한 토픽에 의해서 generated됐다고 가정한다.

LDA가 제안하기를…

문서 별 주제에 대한 사전 분포는 multinomial distribution의 conjugate prior Dirichlet distribution

주제 별 단어 사전 분포도 multinomial distribution의 conjugate prior인 Dirichlet distribution을 사용

이를 통해 얻어진 Dirichlet 사후 분포를 통해서 여행지를 토픽 심플렉스 \(S^K\) 상의 원소로 볼 수 있는 이유는

Dirichlet 분포의 특징을 이용해 문서 별 토픽에 대한 비율로 표현할 수 있기 때문이다. \[ \operatorname{E}[Dir(\alpha_1, \cdots, \alpha_K)] = (\frac{\alpha_1}{\sum \alpha_k }, \cdots , \frac{\alpha_K}{\sum \alpha_k }) \]

마찬가지로, 주제 별 단어의 사후 분포 역시 위를 통해서 단어 심플렉스 \(S^V\) 상의 원소로 볼 수 있게 된다.

6.3 협업 필터링

  • 사용자들로부터 얻은 상품에 대한 선호도를 이용하여 관심사를 예측하는 기법

  • 아마존, 넷플릭스 등에서 사용되고 있음

6.4 사용자 기반 필터링

  • 선호 이력이 유사한 다른 사용자의 선호 아이템을 탐색
  • 아직 구매하지 않은 아이템을 추천
  • 사용자 3과 가장 유사한 사용자 1의 선호 아이템을 추천      

6.5 아이템 기반 필터링

  • 사용자 선호 아이템을 탐색
  • 해당 아이템과 유사한 아이템을 추천 (사과와 햄버거)
  • 햄버거를 구매한 사용자에게 사과를 추천
         

6.6 한계

  • 실제 사용자의 데이터가 있어야 한다는 점이 단점
  • 단순 아이템 기반 모델링의 한계를 보완하고자 도입, 차순위에 두고 진행할 예정